临床数据通常由于其高度机密性而无法自由分发,这阻碍了医疗保健领域的机器学习的发展。缓解此问题的一种方法是使用生成对抗网络(GAN)生成现实的合成数据集。然而,已知甘恩会遭受模式崩溃的困扰,从而产生低脱水量的输出。在本文中,我们扩展了经典的GAN设置,并具有外部内存,以重播真实样品的功能。使用抗逆转录病毒治疗作为人类免疫缺陷病毒(艾滋病毒的ART)作为案例研究,我们表明我们的扩展设置增加了收敛性,更重要的是,它有效地捕获了现实世界中临床数据常见的严重类别不平衡分布。
translated by 谷歌翻译
这两个合成数据集包括3,910名急性低血压患者的生命体征,实验室测试结果,施用流体荧光剂和血管加压剂,并在重症监护病房(ICU)中为2,164名败血症患者。使用先前发布的包含和排除标准建立患者群组,并使用生成的对抗网络(GANS)和MIMIC-III临床数据库创建数据。与这些数据的释放相关的身份公开的风险估计非常低(0.045%)。将数据集作为健康健身房的一部分发布,该项目旨在公开分布用于开发机器学习算法的合成纵向健康数据(特别关注离线强化学习)和教育目的。
translated by 谷歌翻译
深度神经网络越来越多地用于计算机辅助诊断,但对于患者来说,错误的诊断可能是非常昂贵的。我们提出了一种学习推迟不确定性(LDU)算法,该算法识别诊断不确定度的患者,并持续到人类专家评估。 LDU评估了对心肌梗死的诊断(使用放电摘要),诊断任何合并症(使用结构化数据),以及胸腔积液和气胸(使用胸部X射线)的诊断,并与学习推迟而没有不确定性信息'(LD)和“通过不确定性”(DT)方法的直接分类。 LDU达到与LD相同的F1得分,但延迟了较少的患者(例如,36%对69%的延长率,用于诊断胸腔积液的F1分数为0.96)。此外,即使在许多患者被分配错误的诊断时,高信心(例如,对于任何可用性的诊断),LDU达到F1得分增加17%,而DT不适用。重要的是,可以容易地调整LDU中推迟损耗的重量,以获得诊断精度和延迟率之间的所需权衡。总之,LDU可以容易地增加任何现有的诊断网络,以降低临床实践中错误诊断的风险。
translated by 谷歌翻译
Synthetic data generation has recently gained widespread attention as a more reliable alternative to traditional data anonymization. The involved methods are originally developed for image synthesis. Hence, their application to the typically tabular and relational datasets from healthcare, finance and other industries is non-trivial. While substantial research has been devoted to the generation of realistic tabular datasets, the study of synthetic relational databases is still in its infancy. In this paper, we combine the variational autoencoder framework with graph neural networks to generate realistic synthetic relational databases. We then apply the obtained method to two publicly available databases in computational experiments. The results indicate that real databases' structures are accurately preserved in the resulting synthetic datasets, even for large datasets with advanced data types.
translated by 谷歌翻译
Quantifying which neurons are important with respect to the classification decision of a trained neural network is essential for understanding their inner workings. Previous work primarily attributed importance to individual neurons. In this work, we study which groups of neurons contain synergistic or redundant information using a multivariate mutual information method called the O-information. We observe the first layer is dominated by redundancy suggesting general shared features (i.e. detecting edges) while the last layer is dominated by synergy indicating local class-specific features (i.e. concepts). Finally, we show the O-information can be used for multi-neuron importance. This can be demonstrated by re-training a synergistic sub-network, which results in a minimal change in performance. These results suggest our method can be used for pruning and unsupervised representation learning.
translated by 谷歌翻译
社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模,但是使用此技术发现的主题很难解释,并且从语料库到语料库可能会有所不同。在本文中,我们提出了基于推文主题分类的新任务,并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题,我们提供了最近时间段的培训和测试数据,可用于评估推文分类模型。此外,我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析,这为任务的挑战和性质提供了更多见解。
translated by 谷歌翻译
语言随着时间的流逝而演变,单词含义会发生相应的变化。在社交媒体中尤其如此,因为它的动态性质会导致语义转移的速度更快,这使得NLP模型在处理新内容和趋势方面具有挑战性。但是,专门解决这些社交平台动态性质的数据集和模型的数量很少。为了弥合这一差距,我们提出了Tempowic,这是一种新的基准,尤其是旨在加快基于社交媒体的含义转变的研究。我们的结果表明,即使对于最近发行的专门从事社交媒体的语言模型,Tempowic是一个具有挑战性的基准。
translated by 谷歌翻译
知识图(kgs)已被证明是构建数据的可靠方法。他们可以提供有关文化遗产收藏的丰富情境信息。但是,文化遗产库库远非完整。他们通常会缺少重要的属性,例如地理位置,尤其是对于雕塑,移动或室内实体,例如绘画。在本文中,我们首先提出了一个框架,用于从各种数据源及其连接的多跳知识中汲取有关有形文化遗产实体的知识。其次,我们提出了一个多视图学习模型,用于估计给定的文化遗产实体之间的相对距离,该模型基于实体的地理和知识联系。
translated by 谷歌翻译
血管内操作中的自主机器人有可能安全可靠地浏览循环系统,同时降低对人体错误的敏感性。但是,训练机器人的过程涉及许多挑战,例如由于机器学习算法的效率低下而导致的长期培训持续时间以及导管与血管内幻影之间的相互作用引起的安全问题。物理模拟器已在血管内手术的背景下使用,但通常用于员工培训,通常不符合自主插管目标。此外,大多数当前的模拟器都是封闭消息,它阻碍了安全可靠的自主系统的协作开发。在这项工作中,我们介绍了Cathsim,Cathsim是一种开源模拟环境,可加快用于自主内血管内导航的机器学习算法的开发。我们首先使用最先进的血管内机器人模拟高保真导管和主动脉。然后,我们在模拟环境中提供了导管和主动脉之间实时力传感的能力。我们通过使用两种流行的强化学习算法,近端策略优化(PPO)和软参与者(SAC)在两个主要动脉内执行两个不同的导管插入任务来验证我们的模拟器。实验结果表明,使用我们的开源模拟器,我们可以成功训练增强型学习剂以执行不同的自主插管任务。
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译